检索结果

期刊

出版年

关键词

Please wait a minute...

选择:

导出引用
EndNote Ris BibTeX

显示/隐藏图片

Select

1. 多模态预训练模型综述

王惠茹, 李秀红, 李哲, 马春明, 任泽裕, 杨丹

《计算机应用》唯一官方网站 2023, 43 (4): 991-1004. DOI: 10.11772/j.issn.1001-9081.2022020296

摘要（1489）

HTML （132）

PDF （5539KB）（1172）

PDF（mobile）（3280KB）（91）

预训练模型（PTM）通过利用复杂的预训练目标和大量的模型参数，可以有效地获得无标记数据中的丰富知识。而在多模态中，PTM的发展还处于初期。根据具体模态的不同，将目前大多数的多模态PTM分为图像?文本PTM和视频?文本PTM；根据数据融合方式的不同，还可将多模态PTM分为单流模型和双流模型两类。首先，总结了常见的预训练任务和验证实验所使用的下游任务；接着，梳理了目前多模态预训练领域的常见模型，并用表格列出各个模型的下游任务以及模型的性能和实验数据比较；然后，介绍了M6（Multi-Modality to Multi-Modality Multitask Mega-transformer）模型、跨模态提示调优（CPT）模型、VideoBERT（Video Bidirectional Encoder Representations from Transformers）模型和AliceMind（Alibaba’s collection of encoder-decoders from Mind）模型在具体下游任务中的应用场景；最后，总结了多模态PTM相关工作面临的挑战以及未来可能的研究方向。

图表 | 参考文献 | 相关文章 | 多维度评价